在过去的十年中,在线教育在为全球学生提供负担得起的高质量教育方面的重要性越来越重要。随着越来越多的学生改用在线学习,这在全球大流行期间得到了进一步放大。大多数在线教育任务,例如课程建议,锻炼建议或自动化评估,都取决于跟踪学生的知识进步。这被称为文献中的\ emph {知识跟踪}问题。解决此问题需要收集学生评估数据,以反映他们的知识演变。在本文中,我们提出了一个新的知识跟踪数据集,名为“知识跟踪数据库”练习(DBE-KT22),该练习是在澳大利亚澳大利亚国立大学教授的课程中从在线学生锻炼系统中收集的。我们讨论了DBE-KT22数据集的特征,并将其与知识追踪文献中的现有数据集进行对比。我们的数据集可通过澳大利亚数据存档平台公开访问。
translated by 谷歌翻译
A Complete Computer vision system can be divided into two main categories: detection and classification. The Lane detection algorithm is a part of the computer vision detection category and has been applied in autonomous driving and smart vehicle systems. The lane detection system is responsible for lane marking in a complex road environment. At the same time, lane detection plays a crucial role in the warning system for a car when departs the lane. The implemented lane detection algorithm is mainly divided into two steps: edge detection and line detection. In this paper, we will compare the state-of-the-art implementation performance obtained with both FPGA and GPU to evaluate the trade-off for latency, power consumption, and utilization. Our comparison emphasises the advantages and disadvantages of the two systems.
translated by 谷歌翻译
Neuromorphic computing using biologically inspired Spiking Neural Networks (SNNs) is a promising solution to meet Energy-Throughput (ET) efficiency needed for edge computing devices. Neuromorphic hardware architectures that emulate SNNs in analog/mixed-signal domains have been proposed to achieve order-of-magnitude higher energy efficiency than all-digital architectures, however at the expense of limited scalability, susceptibility to noise, complex verification, and poor flexibility. On the other hand, state-of-the-art digital neuromorphic architectures focus either on achieving high energy efficiency (Joules/synaptic operation (SOP)) or throughput efficiency (SOPs/second/area), resulting in poor ET efficiency. In this work, we present THOR, an all-digital neuromorphic processor with a novel memory hierarchy and neuron update architecture that addresses both energy consumption and throughput bottlenecks. We implemented THOR in 28nm FDSOI CMOS technology and our post-layout results demonstrate an ET efficiency of 7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHz, which represents a 3X improvement over state-of-the-art digital neuromorphic processors.
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
基于注意力的神经网络在许多AI任务中都普遍存在。尽管其出色的算法性能,但注意力机制和前馈网络(FFN)的使用仍需要过多的计算和内存资源,这通常会损害其硬件性能。尽管已经引入了各种稀疏变体,但大多数方法仅着重于缓解算法级别上的二次注意力缩放,而无需明确考虑将其方法映射到真实硬件设计上的效率。此外,大多数努力仅专注于注意机制或FFN,但没有共同优化这两个部分,导致当前的大多数设计在处理不同的输入长度时缺乏可扩展性。本文从硬件角度系统地考虑了不同变体中的稀疏模式。在算法级别上,我们提出了Fabnet,这是一种适合硬件的变体,它采用统一的蝴蝶稀疏模式来近似关注机制和FFN。在硬件级别上,提出了一种新颖的适应性蝴蝶加速器,可以在运行时通过专用硬件控件配置,以使用单个统一的硬件引擎加速不同的蝴蝶层。在远程 - ARENA数据集上,FabNet达到了与香草变压器相同的精度,同时将计算量减少10到66次,参数数量为2至22次。通过共同优化算法和硬件,我们的基于FPGA的蝴蝶加速器在归一化到同一计算预算的最新加速器上达到了14.2至23.2倍的速度。与Raspberry Pi 4和Jetson Nano上优化的CPU和GPU设计相比,我们的系统在相同的功率预算下的最大273.8和15.1倍。
translated by 谷歌翻译
现代自动驾驶汽车在很大程度上依赖机械激光雷达。当前的感知方法通常需要360 {\ deg}点云,随着激光雷达扫描方位角并获得连续的楔形切片,依次收集。全面扫描(〜100ms)的采集潜伏期可能导致过时的感知,这不利于安全操作。最近提出的流媒体感知作品直接处理LiDAR切片并通过以前的切片重复使用特征来补偿切片的狭窄视野(FOV)。但是,这些作品都是基于单一模式的,并且需要过去的信息可能过时。同时,高频摄像头的图像可以支持流型模型,因为它们提供了更大的FOV与LiDAR片相比。但是,FOV中的这种差异使传感器融合复杂化。为了解决这一研究差距,我们提出了一个创新的摄像头流媒体3D对象检测框架,该框架使用摄像头图像而不是过去的LiDAR切片来提供最新,密集和广泛的上下文,以进行流媒体感知。所提出的方法在挑战性的Nuscenes基准测试上优于先前的流媒体模型。它还胜过强大的全扫描探测器,同时更快。我们的方法证明对缺少相机图像,狭窄的雷达切片和小型摄像机劳动错误校准具有强大的功能。
translated by 谷歌翻译
多标签图像分类旨在预测图像中的所有可能标签。考虑到在每个培训图像中注释所有标签可能是昂贵的,通常将其作为部分标签的学习问题。关于部分标签学习的现有作品集中在每个训练图像只有其标签的子集注释的情况下。一种特殊情况是在每个训练图像中仅注释一个正标签。为了进一步减轻注释负担并增强了分类器的性能,本文提出了一个新的部分标签设置,其中仅标记了训练图像的一个子集,每个图像只有一个正面标签,而其余的培训图像仍保留未标记。为了处理这个新设置,我们建议一个端到端的深层网络PLMCL(部分标签动量课程学习),可以学会为部分标记和未标记的培训图像生成自信的伪标签。基于动量的新法律通过考虑更新伪标签的速度,更新每个训练图像上的软伪标签,这些标签的更新有助于避免捕获到低信心的本地最低限度,尤其是在培训的早期阶段,由于缺乏观察到的标签和培训的早期阶段对伪标签的信心。此外,我们还提出了一个信心的调度程序,以适应性地对不同标签进行易于锻炼的学习。广泛的实验表明,我们提出的PLMCL在三个不同数据集上的各个部分标签设置下优于许多最先进的多标签分类方法。
translated by 谷歌翻译
在本文中,提出了一种基于进发神经网络的方法来减少单眼视觉探针算法漂移的方法。视觉轨道图算法计算连续摄像机框架之间车辆的增量运动,然后集成这些增量以确定车辆的姿势。提出的神经网络减少了车辆的姿势估计中的误差,这是由于特征检测和匹配,摄像机固有参数等不准确而导致的。这些不准确性传播到对车辆的运动估计,从而导致大量估计误差。降低神经网络的漂移基于连续的摄像头框架中特征的运动来识别此类错误,从而导致更准确的增量运动估计值。使用KITTI数据集对拟议的漂移减少神经网络进行了训练和验证,结果表明,所提出的方法在减少增量方向估计中的误差方面的疗效,从而减少了姿势估计中的总体错误。
translated by 谷歌翻译
最近,卷积增强的变压器(构象异构体)在自动语音识别(ASR)和时间域语音增强(SE)中实现了有希望的表现,因为它可以捕获语音信号中的本地和全局依赖性。在本文中,我们在时间频率(TF)域中提出了SE的基于构型的度量生成对抗网络(CMGAN)。在发电机中,我们利用两阶段的构象体块来通过对时间和频率依赖性进行建模来汇总所有幅度和复杂的频谱图。大小和复杂谱图的估计在解码器阶段被解耦,然后共同掺入以重建增强的语音。此外,通过优化相应的评估评分,采用了度量歧视器来进一步提高增强估计语音的质量。语音库+需求数据集的定量分析表明,CMGAN在优于以前的模型的功能,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
多项式方程系统经常在计算机视觉中产生,特别是在多视图几何问题中。用于解决这些系统的传统方法通常旨在消除变量达到单变量多项式,例如5点姿势估计的第十阶多项式,使用巧妙的操纵,或者更普遍使用Grobner基础,结果和消除模板,导致多视图几何和其他问题的成功算法。然而,当问题复杂时,这些方法不起作用,当他们这样做时,它们面临效率和稳定性问题。同型延续(HC)可以解决更复杂的问题而没有稳定性问题,并且保证全球解决方案,但已知它们是缓慢的。在本文中,我们表明HC可以在GPU上并行化,在多项式基准测试中显示出高达26倍的显着加速。我们还表明,GPU-HC可以在一系列计算机视觉问题上应用于一系列计算机视觉问题,包括具有未知焦距的4视图三角测量和三焦点姿态估计,其无法用消除模板解决,但它们可以用HC有效地解决它们。 GPU-HC打开门,以轻松配方和解决一系列计算机视觉问题。
translated by 谷歌翻译